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Применениє нечеткой логики для определения 
СИЛЬІ связи между язьаіковьіми образами 


У статті розглянуто спосіб побудови таблиці зв'язків між мовними образами з метою створення онтологій 
тексту, а також запропоновано використання методів нечіткої логіки для визначення сили зв'язку між 
мовними образами. 
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Кеу ууогая: Їапоцаєє ітає?е, 5упіасіїс соппесййоп, Ги7гу Іобіс, тетбег5рір ГипсПоп. 


В статье рассмотрен способ построения таблиць связей между язьтковьіими образами з целью создания 
онтологии текста, а также предложено использование методов нечеткой логики для определения сильт 
связи между язьіковьіми образами. 

Ключевьге слова: ЯЗЬкоОвВОоОЙ образ, синтаксическая связь, нечеткая логика, функция принад- 
лежности. 


Вступ 


Комп'ютерне моделювання мовленнєвої діяльності людини є однією з базових 
проблем в галузі побудови інтелектуальних систем. Напрями його застосування най- 
різноманітніші -- це технологія для машинного перекладу, діалогові системи, визна- 
чення авторства, автореферування, системи інформаційного пошуку тощо. 

При побудові людино-машинних інтелектуальних систем необхідним є пред- 
ставлення тексту в такому вигляді, щоб комп'ютер міг ефективно обробити відповідну 
природно-мовну інформацію. Найзручнішим способом отримання знань є аналіз тек- 
стової інформації. Саме тому сьогодні широко застосовуються онтології - формальні 
представлення знань певної предметної області. Вони використовуються в предметних 
областях медицини, біоінформатики, семантичної павутини тощо. Особливої акту- 
альності набуває сьогодні задача автоматизації побудови онтологій. 
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Побудова онтологій вимагає значних витрат часу роботи людини-експерта. Іншою 
значною проблемою є суб'єктивність, яку вносить кожний автор, а тому кінцева онто- 
логія потребує знаходження «спільного знаменника». Отже, маємо важливу задачу 
автоматизації процесу отримання знань з тексту з метою побудови онтології. Розв'язок 
цієї задачі значно зменшить витрати на створення онтологій, а роботу експерта можна 
буде застосовувати лише для оцінки кінцевих результатів, оскільки в даній задачі 
повністю виключити людський фактор практично неможливо. 

Відомі системи обробки текстової інформації базуються зазвичай на автома- 
тичному визначенні ключових слів, що ставляться у відповідність до значимих понять 
предметної області. При цьому зв'язки між такими поняттями, як правило, вносяться 
у онтологію вручну |1|. В роботі |2| запропоновано застосувати модель образного 
мислення людини з метою автоматизації отримання асоціативних зв'язків різних 
типів між мовними образами. Останніми вважають множини однокореневих слів, які 
характеризують окремий образ з нескінченної множини І - (і, і»... | Запропоно- 
ваний підхід забезпечує морфемну класифікацію та гніздовий принцип організації 
словника мовних образів. Розглянуті в роботі |З | нечітке відношення і простір сенсу 
образних конструкцій забезпечують формальну основу для образної індексації природно- 
мовного контенту. 

Мета і задачі. Робота націлена на створення методу автоматизованої побудови 
онтологій, який базується на образній індексації електронного контенту та забезпечує 
використання методів нечіткої логіки для визначення сили зв'язку між мовними обра- 
зами. Для досягнення мети необхідно розв'язати такі задачі: 

- побудова таблиці семантичних зв'язків між мовними образами у тексті; 

- визначення сили зв'язку між мовними образами та побудова онтологій тексту 
на основі цієї інформації. 


Формування таблиці зв'язків між мовними образами 


Запропоноване поняття мовного образу спирається на корінь слова, оскільки 
саме коренева послідовність символів природним шляхом об'єднує словоформи різних 
частин мови. Із самостійних частин мови було обрано найбільш значимі - іменник, 
прикметник, дієслово та прислівник. З них будується словник мовних образів Гс Гу 
вигляді п'ятірки концептів //- (00,0, М, М, МО), де ОО - якість об'єкта, О - об'єкт, 
М -- поняття, М -- метод, ОО --якість методу. Оскільки обрані концепти можна поставити 


у відповідність членам речення (означення, додаток, підмет, присудок і обставина), 
з'являється можливість фіксувати синтаксичні зв'язки як основу узагальнення онто- 
логічних. 

Враховуючи, що кінцева система підтримки онтологій має обробляти фахові 
тексти з предметної області, для побудови моделі образної індексації електронного 
контенту потрібно послідовно розв'язати такі задачі: отримати текстову інформацію 
з електронного контенту, визначити фахову придатність тексту, виокремити речення 
тексту, для кожного речення поставити у відповідність словам речення мовні образи 
та побудувати граф синтаксичних зв'язків між мовними образами, об'єднати окремі 
графи у загальний для всього тексту, побудувати онтологію із загального графа на 
основі вагових параметрів зв'язків. 

Для прикладу взято текст про базу даних, фрагмент якого наведено нижче: 

«База даних (БД) - це організована структура, призначена для зберігання інфор- 
мації: даних і методів, за допомогою яких відбувається взаємодія з іншими програмно- 
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апаратними комплексами. Системи управління базами даних (СУБД) - це комплекс 
програмних засобів, призначених для створення структури, наповнення її змістом, 
редагування змісту та візуалізації інформації». 

Отже, процес побудови онтологій буде складатись з декількох кроків. На першому 
кроці відкидаємо в тексті всі розділові знаки, а також слова, які не несуть вагомого 
змісту згідно з |2|, |3|. У результаті отримуємо лише послідовність тих слів, з яких 
побудуємо словник мовних образів: 

«база даних організована структура призначена зберігання інформації даних 
методів допомогою відбувається взаємодія програмно апаратними комплексами 
системи управління базами даних комплекс програмних засобів призначених створення 
структури наповнення змістом редагування змісту візуалізації інформації». 

Далі будуємо таблицю, де по горизонталі і вертикалі розташовано відсортовані 
за алфавітом мовні образи. У комірку на перетині кожного окремого рядка і стовпця 
додаємо 1 у тому випадку, коли в реченні є синтаксичний зв'язок між цими двома 
словами. 

Для зручного представлення таблицю можна відсортувати за кількістю зв'язків, 
що зустрічаються, і розмістити найбільш вагомі з них у правому верхньому куті. 
Також виділимо різні за вагою зв'язки різними за інтенсивністю кольорами. 
Темніший колір - сильніший зв'язок. Приклад подібної таблиці представлено на рис. 1. 


д В С 12) Е Е Геї н І і) К 19 м 

1 1-3 

2 4-10 дані вид модель база таблиця елемент зв'язок знак сегмент інформа 
Е) »10 даний | модельк базовий табличн елемент звязани признач сегмент інформа 
4 давати моделюї базувати звязува призначати інформу 
5 дано базово елемент звязано значно інформа 
8 (модель модельн моделювати | 1) 1 2 
7 база базовий базуват базово 1 

8 (знак | призначппризнач значно 1 1 шиє 1 

8 елементелементарний | елемен 1 2 1 

10 дані видданий давати дано | | 2 1 

11 зв'язок звязани звязува звязан 2 З 1 2 2 

2 склад | окладен скапада складені 214 кі Ї 
13 буття бути, відбуватис З 1 
14 сегмент сегментний 
15 табамйця табличний 2 
15 порядок упорядк: упорядк! упорядк: 1 1 
17 системе системн системп системі 1 
18 екземпляр 1 1 


Рисунок 1 - Таблиця зв'язків між мовними образами 


Для даного експериментального прикладу вибрано попередньо оброблений текст 
про бази даних. За результатами експертним шляхом було визначено, що для побудови 
онтологій мають значення лише зв'язки, які зустрічаються в тексті більше 4 разів. 
А ті, що зустрічаються більше 10 разів, мають найбільше значення. Так, наприклад, 
зв'язок між словами «база» 1 «дані» зустрічається 17 разів. 

Для інших текстів кількість повторення зв'язків, яку можна вважати вагомою, 
може відрізнятись. Якщо проаналізувати багато текстів, то можна визначити усереднені 
значення слабких, сильних і дуже сильних зв'язків (класифікацію можна розширювати). 
Тому пропонується використовувати методи нечіткої логіки для вирішення задачі 
класифікації сили зв'язку. 

Застосування нечіткої логіки для визначення сили зв'язку. При описі об'єктів 
і явищ за допомогою нечітких множин використовується поняття лінгвістичної змін- 
ної. Лінгвістичною змінною називається набір з), Т, Х, С, М», де: 
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1) В - найменування лінгвістичної змінної; 

2) Т - множина її значень (терм-множина), що представляють собою імена нечіт- 
ких змінних, областю визначення, кожної з яких є множина Х; 

3) С - синтаксична процедура, що дозволяє оперувати елементами терм-множини Т; 

4) М - семантична процедура, що дозволяє перетворити кожне нове значення 
лінгвістичної змінної, утвореної процедурою С, у нечітку змінну, тобто сформувати 
відповідну нечітку множину |41. 

Розглянемо тепер поняття сили зв'язку. У даному випадку створюємо лінгвіс- 
тичну змінну «сила зв'язку». Зв'язок може бути слабким, сильним та дуже сильним. 
Зв'язки можуть зустрічатись в тексті з частотою від 0 до 100906. Формалізація такого 
опису може бути проведена за допомогою лінгвістичної змінної з |), Т, Х, С, М ?, де: 

1) - «сила зв'язку»; 

2) Т - «слабкий зв'язок», «сильний зв'язок», «дуже сильний зв'язок») (Х є |0,1001); 

3) С - процедура утворення нових термів за допомогою зв'язувань «ії», «або» 1 
модифікаторів типу «дуже», «не», «злегка» та ін. 

4) М - процедура завдання на Х - (0, 100| нечітких підмножин А1- «слабкий 
зв'язок», А2 - «сильний зв'язок», АЗ - «дуже сильний зв'язок». 

Найбільше у нечіткій логіці розповсюдження отримали функції належності: 
трикутна, трапецеїдальна, гауссівська. Для даної задачі використаємо гауссівські 
функції належності - на рис. 2 показано всі терми обраної терм-множини («слабкий 
зв'язок», «сильний зв'язок», «дуже сильний зв'язок»). 


0,5 йо З 2 ХУ 


Рисунок 2 - Функції належності 


Запропоновано вважати зв'язки, які зустрічаються менше (0,5 відсотка, слабкими, 
а ті, які зустрічаються частіше ніж 290 від усіх зв'язків - дуже сильними. Зрозуміло, 
що внаслідок масштабного аналізу багатьох різних текстів можна буде точніше виз- 
начити параметри та потрібну кількість функцій належності. Наприклад, якщо в обра- 
ному тексті розглядається якесь одне поняття, то це слово чи словосполучення буде 
зустрічатись дуже часто, а інші - набагато рідше, у такому випадку функція належ- 
ності для терму «дуже сильний зв'язок» буде значно зсунута вправо і відокремлена 
від інших функцій. А для тексту, в якому фігурують декілька основних понять, фун- 
кції належності для термів «сильний зв'язок» та «дуже сильний зв'язок» стануть 
вужчі і будуть відокремлені від функції належності для терму «слабкий зв'язок», 
оскільки багато понять будуть зустрічатись часто. 

Запропонований у статті метод автоматизованої побудови онтологій дає непогані 
результати для української мови. Сучасні методи створення онтологій працюють 
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добре з англомовними текстами, проте для флексійної української мови все набагато 
складніше, оскільки порядок слів у реченні може бути довільним. На основі визначення 
синтаксичних зв'язків у реченні та побудови таблиці цих зв'язків, експериментально 
було підтверджено високу ефективність методу. Так, розглядаючи лише частину таб- 
лиці вищенаведеного прикладу розміром 20х20, що являє собою 2,0795 від усієї таблиці, 
було отримано 85,79 всіх вагомих зв'язків у тексті. 

Внаслідок дослідження обгрунтовано підхід до побудови моделі образної інде- 
ксації електронного контенту, визначено основні задачі та особливості методу авто- 
матизованої побудови онтологій. Використання нечіткої логіки у запропонованому 
методі забезпечує зручну експертну перевірку кінцевих результатів онтології у вигляді 
сили асоціативних зв'язків між мовними образами. Досягнення в експерименті 89,790 
ефективності методу для української мови демонструє актуальність побудови парсеру 
для автоматизованого визначення синтаксичних зв'язків в україномовному реченні. 
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ВЕЗ5СМЕ 
О. У. ВізікКао, Н.О. КугуіепКко 
О5іпе ої Киглу Горіс ог Деїегтіпіпе о! Соппесіїоп 
Упепети Веїугеп Гапецаєє Ітаєє5 

Мефод ої ашотакеа опіоіоєіез Бийадпо, 15 деуеїорей їп Фіз ууогК, Ше плеїрод 15 
разед оп ітаєе іпдехайоп ої еіесігопіс сопіепі апа п5е5 Ги77у Іосіс плефподз ог деїегтіпіпе 
ої соппесійоп 5ігепоЮ Бебуееп Іапспаєє ітаєев5. 

Пие 10 Ше гезеагсії арргоасії о Бийдште ої плоайе!і ої еЇесітопіс сопіепі ітаєє іпйехайоп 
із геазопей, плаїп їа5к5 апа Геашштез ої птлеїпод ої аціотаїед опіоіоєріез рийдїте аге деїегтіпей. 
Киг2гу Іоєіс цз5іпе їп Ше птеШод ргоуіде5 еазу ехрегі уегійсайоп ої опірий опіоіоєу гезціїв. 
Ехрегітепі еййсіепсу ої 85,79о Бог ОЖКгаїпіап Їапоцаєє Фетоп5ігаїез раг5ег Биїдіпе Горісаїйту 
Гог аціотагед декегтіпіпо ої 5упіасіїс соплесіїоп5 їп |)Ктаїпіап 5епіепсе. 
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